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摘要 : [ 目的/ 意义] 调研 和 分 析 国 外 Data Commons( 数 据 共 享 空 间 ) 的 数据 管理 模式 ,为 建设 我 国 的 数据 共 
享 空 间 提供 借鉴 。 [ 方法“ 过程] 通过 梳理 归纳 国内 外 数据 共享 空间 的 发 展现 状 , 对 比 和 分 析 三 者 之 间 差 距 ,并 
以 美国 INRG 数据 共享 空间 为 例 , 从 原则 与 协议 、 数 据 库 与 用 户 接 口 以 及 数据 标识 与 关联 等 方面 剖析 其 数据 空 
间 管 理 模式 ,为 我 国 数据 共享 空间 的 建设 及 发 展 提出 策略 。[ 结果 /结论 ] 结合 案例 和 我 国 数据 共享 平台 现状 ， 
从 总 体 规划 、 建 设 目标 、 要 解决 的 问题 ,DC 总 体 架构 和 用 户 服务 等 方面 提出 具体 建议 。 
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数据 时 代 的 强大 引擎 持续 推动 着 科技 和 社会 向 前 
发 展 ,而 “数据 是 新 的 燃料 "也 诠释 了 数据 重要 的 资源 
价值 "; 。 不 论 对 个 人 ` 组 织 还 是 国家 ,数据 都 是 待 控 掘 
的 神 贵 资产 ,未 来 最 成 功 的 组 织 可 能 就 是 那些 能 够 利 
用 效 据 资源 实现 有 形 或 无 形 资产 最 大 化 的 组 织 垃 。 随 
着 数据 越 来 越 有 价值 ,科学 研究 和 决策 的 数据 获取 、 数 
据 玲 析 .数据 共享 和 数据 应 用 也 变 得 极为 重要 ,已 得 到 
越 来 越 多 国家 和 组 织 的 重视 。 近 年 来 ,我 国 也 已 陆续 
开展 数据 管理 工程 建设 ,如 2002 年 ,科技 部 实施 “国家 


发 现 的 速度 和 范围 ,进而 提高 个 人 和 团队 科研 生产 力 。 
因此 ,我 国有 必要 引入 国外 DC 数据 管理 模式 ,并 开展 
相应 的 DC 数据 服务 。 


2 Data Commons 的 内 涵 、 特 点 及 理论 


研究 进展 


国外 对 于 DC 的 研究 和 建设 起 源 于 20 世纪 70 年 
代 前 后 ,最 先 应 用 于 医学 领域 ,而 后 延伸 到 科研 、 经 济 
和 社会 政策 等 其 他 领域 ,主要 用 于 解决 各 个 领域 突出 
的 数据 管理 问题 。 多 年 来 关于 DC 的 理论 研究 不 断 充 
实 与 完善 ,包括 DC 规划 管理 .和 运营、 发 展 及 相关 法 规 


科 蓉 数据 共享 工程 ”” ,开展 了 不 同 领域 的 数据 共享 建 
设 62015 年 , 国务院 印 发 《促进 大 数据 发 展 行动 岗 
要 》” ,提出 我 国 的 数据 共享 战略 等 。 但 发 展 至 今 ,不 
同 领 域 的 团队 或 研究 者 仍 面临 着 数据 获取 、 数 据 分 析 
和 数据 共享 等 问题 ,在 许多 研究 项 目 中 ,因数 据 共享 


等 范畴 ,丰富 了 DC 内 涵 的 同时 也 保证 了 其 特色 性 。 
2.1 Data Commons 的 内 酒 

在 国外 的 数据 科学 领域 中 ,DC 是 一 个 对 数据 进行 
定位 储存 和 分 析 的 网 络 基础 设施 ,更 是 一 个 利于 研究 


面 存在 的 隐私 .产权 和 管理 等 问题 ,使 数据 获取 和 使 用 
过 程 繁 琐 宛 长 ,花费 了 研究 者 大 量 的 时 间 和 精力 ,阻碍 
了 研究 者 将 数据 更 全 面 地 应 用 于 实际 问题 的 解决 。 因 
此 ,需要 一 个 高 效 的 .可 持续 使 用 的 数据 管理 模式 , 提 
高 研究 人 员 获 取 、 分 析 和 共享 数据 的 效率 。 作 为 一 个 
庞大 的 .可 互 操作 的 数据 共享 平台 ,国外 数据 共享 空间 
(Data Commons,DC ) 为 科研 人 员 和 其 他 用 户 提供 了 
的 研究 模式 ,使 异 构 数据 源 、 分 析 方法 和 第 三 方 应 用 得 
以 融合 ,可 显著 提升 和 扩大 研究 人 员 或 团体 科学 数据 


团体 使 用 通用 方法 和 工具 分 析 与 共享 数据 的 数据 共享 
空间 ” 。 以 医疗 领域 中 的 基因 组 数据 共享 空间 GDC 
(Genomic Data Commons) :5 为 例 ,GDC 是 一 个 在 肿瘤 
医学 领域 中 促进 精确 分 析 的 数据 共享 平台 , 它 不 但 是 
一 个 数据 库 或 工具 ,还 是 一 个 可 扩展 的 知识 网 络 , 用 以 
支持 来 自 各 类 癌症 研究 计划 的 基因 组 和 临床 数据 的 导 
入 ,标准 化 与 最 优化 利用 。 因 此 ,本 文 认为 DC 的 内 涵 
是 :以 科学 及 用 户 服 务 为 目标 ,严格 遵循 数据 法 规 ,为 
各 类 数据 用 户 解决 数据 管理 问题 ,将 数据 获取 .数据 聚 
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合 .数据 标识 .数据 分 析 .数据 应 用 和 数据 共享 功能 
于 一 身 的 高 效 数据 生态 系统 平台 。 
2.2 ” Data Commons 的 特点 

DC 在 国外 数据 管理 领域 中 应 用 广泛 ,在 不 断 的 发 
展 和 实践 中 也 呈现 出 以 下 不 同 于 其 他 数据 管理 模式 的 
村 点 ; 
2.2.1 功能 和 作用 “DC 注重 数据 集成 .数据 关联 , 数 
据 发 现 ,数据 审查 ,数据 分 析 ,数据 应 用 .数据 共享 等 功 
能 的 一 体 化 建设 ,进而 打造 出 专业 化 的 数据 生态 系统 ， 
致力 于 打破 数据 克 断 ,增强 科研 人 员 对 数据 的 复 用 和 
创新 ,从 而 挖 气 数 据 的 深层 价值 。 
2.2.2 数据 处 理 方式 DC 在 处 理 不 同 数据 时 ,遵循 
一 整套 统一 的 标准 化 流程 ,如 :@ 前 期 处 理 , 包 括 数据 
的 录入、 审查 和 筛选 等 ,并 通过 元 数据 或 数据 字典 将 数 
握 近 行 标准 化 ,一 臻 化 处 理 ; 轩 中 期 处 理 ,包括 根据 用 
月 需要 进行 数据 分 析 可视化 .透明 化 和 匿名 化 等 ;@ 
局 团 处 理 , 包 括 数据 共享 数据 出 版 数据 关联 和 数据 
推 笑 等 。 
2 入 3 用 户 服务 DC 主要 以 实体 空间 和 虚拟 平台 两 
和 条 区 式 为 用 户 提供 服务 ,实体 空间 以 深度 接触 .交流 和 


等 提出 DC 数据 的 元 数据 标准 化 .RDFa 和 微 格式 的 
解决 方案 ;N，Purtoval5 明确 了 DC 的 共享 边界 和 社会 
困境 ;此 外 学 者 还 研究 了 如 何 改善 用 户 界面 及 管理 数 
据 , 如 M，Morgan 等 ”提出 改善 DC 与 用 户 沟通 的 接 
口 ,以 更 好 地 与 用 户 交 流 ;Z.， Su 等 ”就 DC 如 何 改善 
疾病 数据 管理 的 途径 提出 了 建议 ;C Scott 等 "提出 
了 如 何 有 效 分 析 DC 中 的 数据 集 问 题 等 。 

(3) DC 的 相关 法 规 。P. N. Halphin 等 ”研究 了 
DC 在 运营 和 管理 过 程 中 要 遵循 的 法 规 ,指出 DC 要 持 
续 发 展 必须 依靠 相关 法 律 ;0CLC"” 提出 政府 和 相关 
机 构 应 制定 相关 政策 ,以 此 来 促进 用 户 获取 、 分 析 和 共 
享 DC 数据 ,鼓励 用 户 在 DC 上 管理 个 人 数据 库 , 并 基 
于 法 规 提供 具备 用 户 属性 的 数据 ;J，Yakowitz' 讨论 
了 数据 共享 受到 阻碍 而 导致 的 悲剧 ,提出 数据 共享 要 
注意 隐私 安全 法 ,最 大 程度 规避 因 隐 私 和 产权 产生 的 
不 良 后 果 。 
2.3.2 国内 数据 共享 空间 理论 研究 ”国内 对 于 数据 
共享 平台 的 理论 探讨 可 归纳 为 两 方面 : 

(1) 借 鉴 并 引入 国外 理论 成 果 经 验 。 对 国外 理论 
成 果 的 引入 和 借鉴 ,可 归结 为 :四 内 部 建设 策略 ,包括 


揽 才 用 户 需求 为 主 ;而 在 虚拟 平台 中 ,DC 除 提供 必需 
的 吏 据 管理 和 分 析 方 法 外 ,还 可 为 用 户 开发 和 研究 自 
二 说 数 据 分 析 方法 .工具 提供 培训 和 指导 ,在 提高 数据 
可 蔽 问 性 和 可 互 操作 性 的 同时 ,也 可 提升 用 户 的 数据 
坪 泊 和 数据 意识 。 

和 Data Commons 理论 研究 进展 

2:31 国外 数据 共享 空间 理论 研究 ”国外 对 DC 展 
开 的 理论 研究 较 早 , 也 较为 完善 ,总 体 可 归结 为 3 个 方 
面 : 


(1)DC 的 设计 和 实施 。 近 年 来 ,国外 对 DC 设计 
和 实施 的 研究 取得 了 新 成 果 , 包 括 DC 框架 设计 .解决 
资金 问题 和 在 各 领域 的 应 用 等 。DC 构建 方面 ,F，、Mo- 
linari Ea J. Mansell Ed 缘 设 计 了 DC 的 一 整套 蓝图 
并 提出 DC 是 将 来 可 替代 其 他 数据 管理 模式 的 高 信任 
度 、 低 成 本 的 数据 共享 平台 ; 关于 资金 问题 , R，L. 
Grossman'” 就 科学 研究 领域 的 DC 资金 问题 提出 了 指 
导 建议 ;针对 DC 的 应 用 ,S. P. French 等 ”提出 应 针 
对 社会 化 大 数据 创建 DC; 美 国 癌症 研究 机 构 "" 和 SS. 
L，Volchenboum 等 .都 为 能 深入 癌症 研究 而 支持 创 
建 儿童 疾病 数据 的 DC。 

(2)DC 的 管理 和 运营 。 在 DC 的 管理 .运营 方面 ， 
国外 学 者 分 析 了 DC 当下 要 解决 的 问题 ,如 S.A. San- 
sone 等 提出 DC 数据 的 标准 化 及 共享 原则 ;C. Bizer 
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平台 建设 和 服务 模式 .功能 与 特点 目标 与 内 容 、 人 员 
数据 素养 4 类 ;@ 外 部 条 件 支 持 , 包 括 政策 和 法 规 、 经 
费 来 源 、 机 构 合作 、 发 展 与 局 限 性 4 类 。 如 宋 秀 芬 
等 ”前 析 了 国外 3 所 著名 大 学 的 数据 平台 特征 功能 
及 局 限 性 ,提出 我 国 应 从 平台 功能 、 政 策 支 持 、 数 据 标 
准 教育 培训 与 合作 交流 等 方面 进行 建设 ; 草 丹 ” 、 完 
颜 邓 邓 “ 都 对 英美 两 国 高 校 的 数据 共享 平台 进行 了 
分 析 , 从 平台 引进 、 政 策 制定 、 数 据 服务 细 分 、 资 金 来 
源 、 建 设 模式 等 方面 给 出 发 展 建 议 ; 杨 知 林 '“ 、 谍 沈 
琴 : 分 别 介绍 和 评估 了 国外 数据 平台 的 模型 . 思 
特色 . 进 阶 功 能 、 元 数据 标准 在 线 分 析 功能 等 。 
(2) 我 国 数据 共享 空间 的 建设 和 发 展 研究 。 其 内 
容 主要 为 两 方面 :一 是 自 上 而 下 式 分 析 , 即 对 已 建成 的 
典型 数据 平台 的 功能 特点 和 服务 等 进行 评析 ,如 朱 玲 
等 汪 论 述 了 北京 大 学 开放 数据 平台 的 构建 过 程 ; 殷 沈 
琴 等 ”评析 了 复旦 大 学 数据 平台 的 系统 选 型 与 功能 ; 
二 是 自 下 而 上 式 设 计 , 即 从 平台 建设 体系 、 服 务 体 系 、 
评价 体系 数据 管理 和 政策 制定 等 基础 条 件 提 出 建议 。 
如 邓 仲 华 等 ”从 保障 信息 安全 ,拓展 服 务 内 容 、 营 造 
共享 氛围 入 手 设 计 了 “互联 网 + “环境 下 数据 共享 平 
台 的 建设 模型 ; 刘 兹 恒 等 “ 提出 基于 学 科 服 务 平台 或 
机 构 知 识 库 来 建设 科研 数据 共享 平台 制定 共享 政策 、 
提升 数据 素养 ; 刘 桂 锋 等 ”从 平台 建设 基础 .数据 、 管 
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理 功能 及 效果 与 影响 4 个 方面 构建 了 数据 平台 评价 指 
标 体系 。 

可 见 ,国内 外 在 对 数据 共享 空间 的 理论 研究 中 各 
有 侧重 ,也 由 此 体现 出 二 者 数据 共享 平台 设计 和 实施 、 
管理 及 运营 等 理论 研究 方面 的 差距 : 

(1) 在 设计 和 实施 理论 中 ,国外 研究 最 注重 数据 
共享 空间 一 整套 蓝图 的 前 期 设计 和 准备 ,尤其 关注 次 
爹 问题 ,框架 设计 以 及 明确 数据 共享 空间 后 期 可 以 用 
来 解决 什么 问题 .如 何 解决 等 ;在 我 国 ,由 于 数据 共享 
空间 的 建设 和 发 展 较 晚 ,其 理论 研究 主要 是 在 借鉴 英 
美 等 国家 共享 空间 建设 经 验 的 同时 探索 适应 本 身 状 况 
的 共享 空间 的 实施 和 运营 框架 ,从 而 采取 边 探索 . 边 设 
计 . 边 实践 的 策略 。 

一 (2) 在 管理 和 运营 理论 中 ,国外 侧重 于 先 对 数据 
替 革 空间 的 困境 和 问题 进行 分 析 并 解决 ,其 次 是 对 共 
之 空间 中 数据 和 用 户 服务 的 管理 与 完善 ,对 于 数据 集 ， 


表 1 


式 等 进行 数据 标准 化 ,从 而 满足 用 户 各 种 数据 应 用 的 
需求 , 属 优化 阶段 ;我 国 现 阶 段 研究 侧重 于 数据 共享 空 
间 的 系统 选 型 基础 建设 .改善 服务 \ 评 价 体系 建设 \ 政 
策 制定 以 及 探索 共享 空间 管理 和 运营 的 具体 路 径 , 虽 
已 有 典型 数据 空间 如 复旦 大 学 、 中 国 科学 院 等 少数 机 
构 的 数据 共享 空间 投入 运营 ,但 仍 处 于 建设 和 发 展 阶 


段 。 


3 内 外 Data Commons 的 实践 发 展 


3.1 国外 数据 共享 空间 的 实践 发 展 

国外 DC 经 过 几 十 年 来 的 建设 发展 和 完善 ,已 在 
各 个 领域 和 国家 得 到 应 用 ,其 中 美国 建设 的 时 间 较 早 ， 
现 已 逐渐 传播 至 英国 澳大利亚 等 国家 ,并 建成 有 各 国 
特色 的 DC 管理 模式 。 通 过 调研 ,本 文 从 研究 领域 . 功 


能 特色 和 运营 模式 等 方面 总 结 了 国外 8 家 典型 DC 的 
数据 管理 模式 ,如 表 1 所 示 : 


国外 数据 共享 空间 的 实践 和 发 展 


人 外 DC 名 录 所 属国 家 /机 构 ”研究 领域 能 /特色 管理 /运营 模式 网 站 /资源 链接 
Sa Change Data ”美国 公共 图 书 ” 社 会 问题 ”激励 公民 参与 ,吸收 新 观点 ,连接 社会 与 数据 ,以 解决 间 ”网 站 平台 + https://www. calfund. 
Cmons (SCDC) 馆 公共 政策 ” 题 和 影响 政治 决策 为 核心 理念 博客 + org/social - change - data - 
CN 物理 空间 commons/ 
GA Commons( DC) 新 加 坡 科学 领域 ”支持 科学 研究 ,促进 数据 传播 和 发 现 ,开发 分 析 工 具 , 匿 ”物理 空间 + https :// datacommons. 
NN 名 化 数据 ,创建 用 户 数据 生态 系统 等 网 站 平台 nus edu. sg/ 
古国 
Nastalian Research 澳大利亚 国立 ”科学 领域 ”创建 DC, 供 研究 界 使 用 ,以 共享 一 系列 学 科 FAIR 型 数 ”物理 空间 + https://arde. edu. au/ 
Da Commons ”大 学 据 ,满足 数据 密集 型 . 跨 学 科 和 全 球 协作 研究 需求 网 站 平台 planning/events/top - 10 - 
> A 
RARDC) fair - data -things -global - 
【qe sprint 
SE Data Commons ”美国 国立 卫生 ”医学 领域 ”使 研究 人 员 获 取 、 互 操作 和 可 重用 数据 来 加 速 数据 发 物理 空间 + http ://www. bio -itworld. 
‘7 研究 院 现 。 用 创造 性 新 方法 组 合 ,分 析 和 提出 新 间 题 ,以 产生 网 站 平台 + com/2017/11/07/nih 
a 新 的 知识 等 实体 机 构 launches -data -commons - 
Cy pilot-with 9 -projects 
P2P Data Commons “瑞士 商业 领域 ”实施 数据 对 等 协议 ,数据 管理 个 性 化 ,以 安全 认证 口令 物理 空间 + https://www. tokencom- 
(P2PDC) 牌 .API 和 算法 控制 数据 用 户 且 具有 数据 可 移植 性 等 网 站 平台 mons. org/ 
Data Commons(DC) ”新 西 科学 领域 ”一 种 基于 信任 和 协议 的 奖励 和 鼓励 数据 集成 、 重 用 、 共 ”物理 空间 + http ://datacommons. org. 
享 的 数据 生态 系统 等 网 站 平台 nz,2017. 
Data Commons(DC) ”美国 斯 坦 福 教育 领域 ”研究 和 开发 分 析 方 法 、 算 法 和 软件 并 将 其 应 用 于 数据 分 ”物理 空间 + https://sdsi. stanford. 
学 析 , 提 高 数据 的 可 访问 性 等 网 站 平台 edu/data commons 
INRG Data Commons ”美国 医学 领域 “创建 较 完整 的 管理 和 运营 架构 ,包括 ;共享 系统 .数据 生 。 物理 空间 + http://europepme。 org/ 
(INRG-DC) 命 周 期 流程 .运营 环境 .数据 审查 分 析 等 虚拟 空间 abstract/ MED/28561664 


由 表 1 可 见 ,DC 的 实践 领域 涵盖 基础 科学 、 医 疗 
卫生 公共 服务 和 教育 等 领域 ,在 发 现 社会 潜在 问题 、 
挖掘 公民 需求 .影响 公共 政策 和 提供 决策 等 方面 做 出 
了 重要 的 贡献 。 

(1) 功 能 与 特色 方面 。DC 具备 为 研究 人 员 获 取 、 
分 析 ,监护 应 用 和 共享 数据 的 能 力 , 在 基于 相关 数据 
政策 的 前 提 下 ,发挥 着 服务 社会 与 公众 的 作用 。 经 过 
多 年 发 展 和 完善 ,DC 的 数据 管理 模式 也 正 发 生 转 变 ， 


不 仅 包括 物理 空间 、 实 体 、 微 博 和 虚拟 平台 的 项 目 ,还 
不 同 程度 上 担当 着 智库 的 角色 ,有 逐渐 发 展 成 为 特色 
智库 的 趋势 ,通过 对 数据 的 管理 分 析 为 研究 者 和 政府 
提供 决策 依据 ,使 得 用 户 做 出 更 明智 的 决策 。 

(2) 数 据 管理 与 分 析 方 面 。DC 作为 一 种 新 的 工 
具 数据库 的 扩展 或 一 类 网 络 基础 设施 ,降低 了 用 户 数 
据 获取 的 复杂 性 和 成 本 、 提 高 了 数据 分 析 质 量 、 简 化 了 
数据 应 用 过 程 等 ,如 利用 图 形 化 展现 技术 实现 数据 的 
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可 视 化 分 析 、 链 路 分 析 、 血 缘分 析 和 影响 分 析 , 实 现 系 
统 间 应 用 集成 关系 的 可 视 化 展现 ,为 用 户 提供 多 层级 、 
细 粒 度 的 分 析 结 果 展 现 ,等 等 。 此 外 ,DC 打破 了 数据 


获取 和 分 析 的 局 限 ,利用 常见 基础 设施 分 析 、 共 享 数 
据 ,为 科研 团体 提供 了 可 互 操作 的 平台 ,如 美国 某 非 盘 


利 公 司 开发 了 DC 云 计算 基础 设施 来 支持 科学 研 
究 , 如 开放 科学 数据 共享 云 等 ,用 户 包 括 大 学 、 非 营利 
组 织 、 公 司 和 政府 机 构 等 。 

(3 ) 管 理 和 运营 模式 方面 。 大 多 数 DC 在 建设 初 
期 会 对 其 设计 系统 选 型 .功能 和 服务 规划 以 及 相关 规 
则 进行 严格 控制 ,如 设计 一 整套 执行 计划 制定 数据 管 
理 生命 周期 流程 和 相关 技术 规则 与 协议 等 ,尤其 通过 
用 户 激励 政策 ,鼓励 各 类 用 户 共同 参与 DC 的 管理 和 
各 党 。 由 于 前 期 准备 工作 充分 ,后 期 建成 的 网 站 平台 、 
虚 扬 空 间 甚 至 实体 公司 功能 往往 能 更 加 完备 ,服务 更 


0 此 外 ,DC 这 些 功 能 都 能 在 用 户 界面 中 体现 , 研 

人 员 能 够 与 这 些 平台 进行 互 操作 ,以 REST-API 编程 
a DC 建立 接口 ,实现 查询 和 下 载 数据 ,驱动 当前 
数据 门户 ,如 为 项 目 、 文 件 和 案例 创建 DC 数据 模型 的 
索引 视图 .结果 分 析 图 .共享 路 径 图 及 收集 相关 信息 
等 ,因此 ,DC 尤为 重视 用 户 界面 的 建设 和 完善 。 
3.2 我 国 数据 共享 空间 的 实践 发 展 

TO Pe A es 
较 早 的 如 清华 大 学 中 国 经 济 社会 数据 中 心 于 2009 年 
ee 空 航天 大 
学 的 数据 空间 都 已 初 具 规模 。 如 表 2 所 示 , 本 文选 取 
国 8 家 具有 代表 性 的 数据 共享 平台 ,通过 对 数据 源 

涵盖 领域 .平台 功能 与 服务 .合作 机 构 等 方面 的 调研 和 

分 析 ,总结 和 归纳 数据 共享 平台 的 理念 和 目标 、 功 能 
服务 及 建设 和 管理 机 制 等 。 


= 表 2 国内 典型 数据 共享 平台 的 发 展现 状 

> 数据 平台 名 录 隶属 机 构 /运营 时 间 数据 源 领 域 平台 功能 与 服务 合作 机 构 

复旦 各 大 学 社会 科学 数据 研 ”复旦 大 学 /2013 年 国内 外 科学 研究 数据 等 。 ”数据 监护 .数据 共享 、 数 据 引 ”哈佛 大 学 data verse 

Fhe 33] 证 ,数据 分 析 等 

上 E 节 航空 航天 大 学 数据 共 ”北京 航空 航天 大 学 /2014 主要 为 内 部 数据 库 等 。 ”数据 审计 交换 与 数据 共享 、 校内 各 部 站 

2 各 34] 年 数据 应 用 等 

.Pp ) 

国家 人 口 与 健康 数据 共享 ”基础 科学 数据 中 心 /2016 人口 与 健康 数据 等 数据 集成 .共享 等 清华 大 学 .北京 大 学 等 

Co 35] 年 

ea 

(国家 基础 科学 数据 共享 服 。 中 国 科学 院 计算 机 网 络 信 ”基础 科学 领域 数据 资源 。 数据 标准 化 ` 数 据 发 现 ,检索 、 ”中国 科 学 院 、 国 内 高 校 和 其 他 科研 
务 平台 36 息 中 心 等 /2013 年 等 下 载 等 院 所 

_ 国 家 地 球 系统 科学 数据 共 。 中 国 科学 院 地 理科 学 与 资 。 环境 \ 区 域 等 地 球 科学 数 。 数据 查找 数据 下 载 .数据 整 。 中 国 科学 院 地 理科 学 与 资源 研究 
Naz 平台 [37 源 研 究 所 /2011 年 尼 等 合 与 共享 等 所 等 国内 外 40 家 机 构 

多 所 

杠 汉 大 学 高 校 科研 数据 共 武汉 大 学 /2012 年 物种 资源 数据 库 .读者 调 ”数据 收集 存储、 快速 检索 . 共 ” 校 图 书馆 、 开 源 软 件 Dspace 等 

事 吓 台 [38 查 数据 等 享 .再 利用 等 

“从 二 科技 大 学 社会 科学 数 。 华中 科技 大 学 /2012 年 电子 科技 ,系统 工程 数据 ”数据 管理 ,数据 挖 气 、 决 策 支 ”华中 科技 大 学 中国 高 校 社会 科学 
Pi 等 持 、 系 统 设计 开发 服务 等 数据 中 心 ,电子 信息 与 通信 学 院 等 
演 礁 大 学 中 国 经 济 社会 数 ”清华 大 学 /2009 年 以 经 济 调查 数据 和 宏观 ”数据 收集 .数据 处 理 等 功能 、 清华 大 学 经 济 管理 学 院 、 人 文 社会 
据 中 心 [9 截面 数据 为 主体 等 经 济 调查 和 政策 发 展 研究 等 。 科学 学 院 等 


由 表 2 可 见 : 中 理念 和 目标 。 我 国 数据 共享 空间 
的 建设 理念 围绕 着 用 海量 数据 为 其 附属 机 构 或 社会 公 
众 提 供 数据 资源 .数据 服务 .决策 支持 和 软件 开发 等 ， 
其 主要 目标 是 实现 对 数据 的 存储 和 管理 ,如 华中 科技 
大 学 科学 数据 中 心 所 提供 的 软件 设计 和 开放 服务 。®® 
建设 机 制 。 大 致 分 为 两 个 方面 :一 是 合作 共 建 ,这 是 大 
多 数 机 构 都 采用 的 方式 ,如 复旦 大 学 社会 科学 数据 研 
究 中 心 与 哈佛 大 学 dataverse 合作 建设 数据 中 心 、 国 家 
地 球 系统 数据 平台 等 ;二 是 根据 本 身 机 构 特色 自主 建 
设 , 如 北京 航空 航天 大 学 数据 共享 平台 采取 校内 机 构 
合作 方式 建设 。 凶 功能 与 服务 。 对 于 功能 方面 ,我 国 
数据 共享 空间 的 功能 多 集中 于 数据 集成 .存储 、 标 准 
化 \ 检 索 、 分 析 、 共 享 等 方面 ,基本 涵盖 了 数据 生命 周期 


140 


的 主要 环节 ;用 户 服务 方面 ,我 国 数据 共享 空间 主要 函 
向 高 校 \ 人 研究 机 构 和 政府 等 用 户 ,已 建成 的 部 分 数据 共 
享 平台 主要 为 用 户 设 置 了 如 用 户 注册 、 登 录 、 访 问 、 下 
载 和 数据 分 析 等 基本 服务 ,少数 共享 平台 为 用 户 提 供 
应 用 、 协 作 人 研究 和 决策 支持 等 增值 服务 。 
3.3 国内 外 数据 共享 平台 的 对 比分 析 

本 文选 取 国 内 外 各 5 家 典型 数据 共享 空间 ,分 别 
从 平台 管理 和 运营 .平台 功能 和 用 户 服务 3 个 方面 进 
行 对 比 , 如 表 3 所 示 ,发 现 与 国外 相 比 ,我 国 数据 共享 
空间 建设 仍 存在 差距 和 不 足 。 

(1) 平 台 管 理 和 和 运营。 与 国外 相 比 ,我 国 数据 平 
台 的 管理 和 运营 较为 薄弱 ,缺乏 一 整套 的 数据 治理 规 
划 数据 生命 周期 流程 .合理 的 管理 结构 和 各 项 协议 设 
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表 3 国内 外 典型 数据 共 


平台 的 功能 与 服务 对 比 


平台 功 色 


用 户 服务 


平台 管理 和 运营 


数据 处 理 前 期 


数据 处 理 后 期 基础 服务 增值 服务 


国内 外 平台 数据 治理 规划 完善 数 。 名 各 安全 认证 .提交 、 下 载 .重复 分 析 .再 次 。 管理 数据 ,个 性 设置 、 | 
据 生命 周期 流程 合理 全 人 生生、 协作 研究 鼓励 用 户 参 
管理 结构 各 项 协议 设 审查 存储、 标准 化 ` 检 “利用 共享、 发布 .出 版 “连接 用 户 和 数据 用 记 与 决策 咨询 等 
> 索 . 分 析 . 可 视 化 等 ” 等 培训 等 
国外 INRG Data Commons YG V V V V 
Australian Research V V V 这 
Data Commons 
P2P Data Commons V V V 
Data Commons V V V 4 
(新 加 坡 ) 
Social Change 入 V BV V 
Data Commons 
国内 复旦 大 学 社会 科学 Vv Vv Vv 
数 居 看 究 中 心 
本 = 北京 航空 航天 大 学 V Vv 
> 数据 共享 平台 
国家 人 口 与 健康 V V V 
数据 共享 平台 
国家 地 球 系统 科学 Vv 
数据 共享 平台 
“华中 科技 大 学 社会 V V 
人 =。 科学 数据 中 心 


短 鱼 ,如 除 复旦 大 学 社会 科学 数据 平台 的 元 数据 DDI 
械 准 外 ,其 他 平台 均 无 明确 说 明 , 直 接 影响 了 数据 空间 
上 乓 浏 际 应 用 ,导致 仅 少 部 分 功能 可 提供 用 户 使 用 ,实用 
性 须 强 。 在 总 体 规划 和 政策 协议 方面 ,国内 目前 昌 有 
对 数据 管理 的 宏观 政策 制定 和 布局 ,但 缺乏 中 观 和 微 
观 寿 面 的 管理 规范 来 引导 和 激励 数据 管理 的 发 展 ,如 
平 各 构建 要 素 、 使 用 和 评估 规范 人员 激励 政策 .用户 
规范 和 必要 强制 性 措施 等 ,从 而 使 数据 管理 进程 缓慢 ， 
影响 了 实施 效果 。 

(2) 平 台 功 能 。 国 内 多 数 数据 共享 平台 在 数据 处 
理 的 前 期 和 后 期 功能 设置 较为 完善 ,主要 为 数据 集成 、 
数据 存储 数据 分 析 和 数据 共享 等 功能 ,但 在 实际 应 用 
和 操作 中 未 对 用 户 开放 ,有 些 功能 还 处 于 封闭 中 或 有 
待 改善 ,如 多 数 平台 功能 只 包括 :数据 检索 (有 些 检索 
方式 单一 、 高 级 检索 项 缺失 等 ) .导航 (存在 部 分 空 链 
接 、 无 链接 等 ) 下载 ( 只 少量 数据 允许 下 载 ,或 需 提交 
申请 ,步骤 繁琐 ) ,分析 及 可 视 化 (在 线 数据 分 析 和 可 
视 化 开放 程度 低 ,导致 用 户 利用 率 降低 ) 和 共享 等 , 影 
响 了 用 户 的 体验 感 及 对 数据 平台 的 评价 。 

(3) 用 户 服务 。 国 内 多 数 数据 共享 平台 在 服务 方 
面 的 规划 和 建设 呈现 出 重 功能 而 轻 服务 的 现状 ,对 于 
用 户 基础 服务 仍 未 完全 实现 ,如 访问 数据 鼓励 用 户 参 
与 .个 性 化 设置 .用 户 培训 等 仍 有 待 完 善 ;增值 服务 方 


面 的 不 足 较 为 突出 ,如 协作 研究 、 连 接 用 户 和 社会 、 决 
策 咨询 等 比 国外 少 ,服务 方式 单一 、 低 效 , 仅 有 少数 提 
供 决策 支持 和 用 户 培训 等 服务 ,如 复旦 大 学 社会 科学 
数据 平台 、 华 中 科技 大 学 社会 科学 数据 中 心 等 。 导 致 
上 述 问题 的 原因 可 归结 为 :总 体 管理 和 运营 规划 缺失 、 
用 户 需 求 开 发 不 足 ,缺乏 概念 推广 .需求 调研 .服务 多 
元 化 建设 等 系统 化 的 保障 ,导致 用 户 关注 度 不 高 ,缺乏 
信任 感 和 用 户 互动 性 ,从 而 难以 展开 全 面 、 彻 底 ` 有 效 
的 以 用 户 为 中 心 的 服务 。 


Se 


4 国外 Data Commons 案例 分 析 


以 美国 INRG Data Commons 为 例 


4.1 INRG DC 启动 背景 

在 世界 范围 内 ,儿科 癌症 虽 不 多 见 , 却 仍 是 医疗 领 
域 的 难题 , 因 儿 童 癌症 病例 共享 数据 的 缺乏 而 使 得 深 
人 研究 陷入 瓶颈 ,而 DC 的 出 现 为 支持 该 科学 研究 找 
到 了 一 种 变革 性 的 方法 。2004 年 ,由 北美 欧洲 、 澳 大 
利 亚 和 日 本 儿童 癌症 组 织 代表 合作 组 建 了 国际 神经 母 
细胞 痛风 险 组 (INRG) ,准备 开启 儿童 癌症 数据 DC , 通 
过 分 析 和 共享 数据 找到 最 佳 治疗 办 法 。 
4.2 ”INRG DC 管理 模式 

INRG 组 建 了 专家 团队 ,参照 科学 数据 管理 的 
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FAIR 原则 , 即 可 查找 性 (Findable) .可 访问 性 ( Accessi- 
ble) 互 操作 性 (Interoperable) 和 可 重用 性 (Reusable )4 
个 数据 管理 原则 制定 了 INRG -DC 的 一 套数 据 管理 模 
式 ,其 主要 内 容 如 下 : 

4.2.1 总 体 规划 INRG 制定 了 一 整套 设计 、 建 设 和 
管理 DC 的 规划 ,如 :@ 前 期 计划 ,包括 资金 .建设 杠 
架 ,管理 和 运营 等 ;@ 中 期 计划 ,包括 规范 数据 生命 周 
期 管理 流程 与 完善 数据 管理 体系 等 保证 数据 共享 空间 
建设 和 发 展 的 科学 性 ,系统 性 .层次 性 和 可 持续 性 ;@) 
后 期 计划 ,主要 是 对 平台 功能 和 用 户 服务 的 指标 性 评 
价 等 ,并 作为 改进 的 依据 。 

4.2.2 数据 库 与 用 户 接口 ”芝加哥 大 学 研究 信息 中 
心 (CRI) 研究 人 员 设计 并 构建 了 INRG 表 型 数据 的 数 
据 库 ,并 开启 用 户 前 端 接口 ,基于 协议 ,任何 人 都 可 以 
查 馆 和 使 用 相关 数据 。 从 1980 年 至 今 ,数据 库 中 已 积 
界 卫 18 000 多 位 患者 的 数据 并 定期 更 新 。 除 了 基本 
闫 注 , 数 据 库 还 可 以 通过 API 过 滤 生 物 标本 数据 以 巴 
羯 到 用 性 ,大 大 提升 了 数据 获取 速度 和 准确 度 ,简化 了 


数据 库 与 用 户 之 间 的 交互 过 程 ,可 直接 连接 到 目标 数 
据 > 


数据 字典 ”基于 相关 标准 和 规则 ,INRG 建立 
半 癌 症 患 者 DC 数据 分 类 与 分 析 系 统 和 数据 标准 
麻 统 ,与 每 个 地 区 的 统计 人 员 共 同 创建 标准 数据 字 
典 3 玫 所 有 数据 元 素 映射 到 该 框架 中 , 主要 是 将 包含 
199@ - 2002 年 间 全 世界 诊断 出 的 8 800 位 患者 临床 数 
据 赴 行 标准 化 和 同 构 化 ,并 使 数据 得 到 充分 利用 ,为 数 
据 薄 析 .关联 打下 基础 。 

4"@CH 数据 标识 与 关联 对 于 数据 标识 符 问题 ,儿童 
肿瘤 学 组 (COG ) 为 每 个 数据 分 配 通 用 样本 标识 符 
(USI) 。USI 与 随后 生成 的 任何 示例 .数据 和 其 他 信息 
相关 联 , 使 得 目标 数据 集中 的 所 有 样本 都 有 USI 链接 
回 INRG 数据 库 中 的 数据 ,直接 关联 数据 集 ,保障 了 各 
类 数据 可 被 直接 调用 ,并 能 够 做 到 数据 之 间 的 关联 ,使 
得 用 户 完成 对 数据 较为 全 面 的 对 比 和 分 析 , 拓 宽 了 使 
用 数据 的 范畴 。 
4.2.5 数据 审查 和 监护 “DC 的 操作 中 心 是 一 个 监护 
和 审批 程序 ,要求 用 户 通过 门户 正式 访问 数据 ,数据 访 
间 由 DC 审查 机 制 单独 管理 ,可 通过 权限 获取 INRG 临 
床 数据 和 美国 国立 生物 技术 信息 中 心 (NCBI) 基因 组 
数据 ,而 后 DC 将 临床 数据 存储 为 一 个 对 象 , 先 通过 审 
查 模式 对 数据 质量 和 数量 进行 审查 ,而 后 启动 虚拟 机 
使 用 命令 行 工具 进行 数据 分 析 , 避 免 用 户 使 用 错误 数 
据 导致 错误 结果 咏 。 
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4.2.6 原则 及 协议 设 定 INRG 调集 相关 专家 制定 出 
了 INRG-DC 的 一 套 操作 原则 和 协议 。 相 关 协 议 包 括 : 
QD 协 同 设计 规则 ,要 求 DC 与 技术 专家 、 科 学 家 、 用 户 
和 相关 政府 组 织 合作 ,交换 DC 实施 的 建议 ;@ 元 数据 
规则 ,DC 需要 元 数据 、 词 汇 表 控制 及 标准 化 数据 库 的 
各 种 数据 元 素 , 使 数据 容易 被 搜索 .发现 和 关联 ;@ 匿 
名 化 与 安全 协议 ,DC 必须 了 解 用 户 目 的 和 需要 ,保障 
为 用 户 分 配 共享 资源 的 适 配 性 和 安全 性 ,匿名 化 也 可 
防止 数据 滥用 等 。 

4.2.7 用 户 评价 和 需求 分 析 DC 通过 内 、 外 部 数据 
的 可 视 化 分 析 工 具 和 算法 来 完成 对 数据 不 同 层级 的 分 
析 ,如 数据 应 用 频率 可 视 化 .相关 图 形 可 视 化 和 诊断 检 
测 等 ,进而 从 不 同 层次 分 析 数 据 的 内 、 外 部 特征 ,用 户 
还 可 通过 思维 导 图 认 知 数据 处 理 过 程 ,甚至 可 亲身 操 
作 基 因 组 数据 ,如 通过 基因 组 DC 应 用 程序 接口 从 DC 
中 提取 数据 ,并 与 临床 数据 进行 比 对 ,完成 后 续 分 析 和 
处 理 产生 结果 等 过 程 ,最 后 根据 结果 为 用 户 提供 最 合 
理 的 决策 和 建议 。 上 述 过 程 既 可 探究 和 满足 不 同 用 户 
的 需要 ,也 可 作为 评价 指标 ,在 每 个 操作 环节 中 得 到 用 
户 反 馈 。 

4.3 ”INRG DC 建设 成 果 

4.3.1 用 户 数据 生态 系统 INRG-DC 创建 了 一 个 本 
体 化 的 ,鼓励 数据 集成 .数据 分 析 、 数 据 共享 和 数据 应 
的 数据 生态 系统 。 该 数据 生态 系统 试图 在 最 大 化 相 
关 者 利益 的 基础 上 ,实现 数据 集成 .聚合 ,分析 和 共享 
的 完整 数据 生态 周期 模式 ,逐渐 消除 用 户 对 于 数据 产 
权 和 数据 隐私 方面 的 忧虑 ,建立 起 用 户 对 DC 的 信任 
感 ,进而 促进 从 改变 用 户 意 识 到 促进 用 户 行为 的 转变 ， 
以 此 为 核心 推动 数据 科学 的 进步 和 发 展 。 

4.3.2 ”改善 数据 生命 周期 流程 ”通过 DC 加 速 了 以 
联盟 为 主 的 协作 发 现 、 数 据 开 发 .数据 归属 数据 分 析 
和 数据 共享 的 强大 流程 ,增强 了 数据 的 互 操作 性 和 访 
问 性 。DC 基础 架构 .策略 和 流程 的 全 面 协作 开发 ,最 
大 好 处 之 一 是 能 够 找到 治疗 儿科 癌症 的 新 型 个 性 化 医 
疗 方法 ,进而 识别 最 需要 积极 治疗 的 儿童 群体 ,同时 减 
低 无 效 治疗 的 风险 。 

4.3.3 创设 DC 管理 运营 环境 基因 组 分 析 的 发 展 
以 及 数据 存储 和 计算 资源 的 民主 化 ,为 DC 管理 儿科 
癌症 数据 提供 了 理想 的 计算 环境 ,实现 了 收集 、 标 准 化 
和 聚合 患 儿 不 同 表 型 .基因 组 数据 和 其 他 数据 在 DC 
内 的 互相 连接 。 如 今 DC 在 可 持续 性 运营 环境 下 的 运 
营 不 但 促进 了 数据 的 应 用 ,还 对 儿科 癌症 研究 产生 了 
积极 影响 ,更 为 诊断 和 治疗 患 有 肿瘤 疾病 的 儿童 提供 
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了 新 颖 的 方案 。 

可 见 ,INRG-DC 在 帮助 解决 医疗 领域 中 的 数据 管 
理 问题 时 担当 了 重要 角色 ,这 归功 于 INRG -DC 良好 的 
建设 管理 和 运营 。 从 DC 的 总 体 规划 到 具体 实施 ,不 
但 形成 了 涵盖 数据 库 与 用 户 接口 数据 标识 与 关联 数 
据 审查 监护 和 原则 及 协议 设 定 等 一 系列 数据 功能 与 服 
务 模式 ,还 取得 了 包括 建设 数据 生态 系统 和 改善 数据 
生命 周期 流程 等 成 果 ,更 具体 更 微观 地 实现 了 集 平台 


建设 和 用 户 服务 的 一 体 化 管理 。 因 此 ,我 国 在 解决 数 
据 管理 问题 时 应 适当 借鉴 和 引入 INRG -DC 的 建设 与 
管理 模式 ,以 设 定 总 体 规划 、 具 体 目 标 并 针对 主要 问题 
为 中 心 搭建 和 制定 适应 我 国 数据 环境 的 DC 架构 和 建 
设 策略 ,为 用 户 提供 更 高 效 .完善 的 服务 。 


S ”我国 Data Commons 建设 的 总 体 框架 
及 策略 
5GD pc 的 总 体 规划 、 目 标 和 要 解决 的 问题 
5CDI DC 总 体 规划 作为 设计 和 建设 数据 共享 空间 
的 前 期 工作 ,总 体 规划 及 布局 尤为 重要 ,如 制定 一 整套 


据 共享 和 高 效应 用 的 目的 。 

5.2 DC 的 总 体 框架 及 建设 策略 

5.2.1 DC 总 体 架构 ”我国 数 据 共享 空间 的 总 体 架构 
( 见 图 1) 应 由 用 户 层 、 用 户 接 口 层 、 应 用 与 服务 层 和 数 
据 资 源 层 4 个 部 分 构成 。 首 先 , 各 类 数据 用 户 通 过 数 
据 共 享 空间 的 用 户 接 口 层 将 各 领域 数据 资源 提交 、 共 
享 到 DC 内 部 ;然后 在 应 用 与 服务 层 , 用 户 对 目标 数据 
进行 管理 ,整个 过 程 在 DC 管理 和 运营 人 员 的 监护 下 
完成 ,保障 了 相关 利益 者 层 的 利益 均衡 ;最 终 , 各 层 之 
间 相 互 关联 、 相 互 协同 及 相互 作用 共同 构成 了 DC 完 


党 得 的 前 期 设计 蓝图 (包括 资金 ,建设 框架 ` 管 理 和 运 
营 等 ) 和 完整 的 数据 生命 周期 流程 等 ,通过 完善 数据 管 
更 候 系 来 保障 数据 共享 空间 建设 和 发 展 的 科学 性 、 系 
统 性 ,层次 性 和 可 持续 性 。 

5.E2 DC 的 目标 我国 DC 建设 的 目标 主要 包括 : 
@ 小 进 数据 共享 进程 。 作 为 数据 共享 空间 ,目的 就 是 
让 阁 据 实现 最 大 限度 地 被 管理 并 用 于 解决 实际 问题 。 
@ 磊 化 用 户 服务 。 通 过 提供 以 用 户 为 中 心 的 数据 服 
务 (克服 用 户 以 往 遇 到 的 数据 管理 障碍 。@@ 促 进 交流 
与 合作 。 通 过 鼓励 和 促进 数据 间 、 用 户 间 的 交流 和 合 
作 , 充 分 发 现 并 挖掘 数据 价值 。@ 拓 宽 数据 服务 领域 。 
DC 充当 连接 数据 和 用 户 的 第 三 方 角色 ,应 基于 数据 法 
规 ,扩大 服务 范畴 。 

5.1.3 DC 要 解决 的 问题 数据 共享 空间 的 建设 与 实 
泡 则 在 帮助 科研 人 员 和 其 他 用 户 解决 将 大 量 分 散 的 且 
具 潜 在 价值 的 多 源 异 构 数据 集成 化 ,标准 化 ,价值 最 大 
化 和 分 配 最 优化 等 问题 。 通 过 DC 的 有 效 管理 ,将 不 
同 领域 的 目标 数据 与 数据 用 户 快速 连接 ,利用 先进 数 
据 分 析 和 管理 技术 实现 数据 ,技术 .人 三 者 之 间 的 高 度 
结合 ,增强 DC 用 户 处 理 敏感 ,大 规模 和 非 结 构 化 数据 
的 能 力 ,建设 成 从 数据 源 确定 .用户 与 数据 交互 .数据 
共享 与 应 用 到 相关 者 利益 合理 分 配 等 过 程 的 完整 高 
效 的 数据 生命 周期 模式 ,使 得 最 具 价 值 的 数据 能 够 通 
过 DC 这 种 有 效 途 径 被 最 合适 的 用 户 所 使 用 ,达到 数 


整 管理 机 制 的 数据 共享 空间 平台 。 
户 层 科研 人 员 | | 政府 人 员 | | 高 校 师 生 | | 智库 人 员 | | 企业 人 员 
登录 系统 | | 权限 控制 | | 数据 提交 | | 数据 审查 | | 数据 检索 
户 接口 层 | 
户 管理 系统 
关联 其 他 数据 库 |- 一 个 性 化 数据 推送 
数据 素养 | | 数字 字典 | ”| 数据 关联 | | 数据 对 等 
应 用 与 服务 层 数据 分 析 数据 生态 系统 数据 共享 
数据 对 等 | | 数据 监护 | | 数据 协议 | | 数据 应 
数据 资源 层 | | | 科研 数据 区 经 济 类 数据 || 医疗 类 数据 | 社会 化 数据 


图 1 我 国 DC 数据 共享 空间 的 总 体 架 构图 


(1) 用 户 层 。 该 层 为 DC 运营 中 服务 的 主要 对 象 
和 人 群 ,根据 DC 在 不 同 领域 不 同 机 构 ( 包 括 高 校 \ 政 
府 ,企业 \ 研 究 机 构 等 ) 的 建设 和 应 用 ,其 用 户主 要 可 分 
为 科研 人 员 政府 人 员 、 高 校 师 生 、 智 库 人 员 企业 人 员 
普通 用 户 等 ,此 外 ,DC 还 应 明确 和 制定 各 类 利益 群 
体 的 利益 分 配 机 制 和 原则 。 
(2) 用 户 接口 层 。DC 接口 层 属于 用 户 的 基本 操 
作 层 ,主要 通过 网 站 ,移动 终端 等 接口 负责 直接 与 用 户 
交互 ,处理 用 户 请 求 和 向 用 户 提供 各 项 服务 ,并 协同 用 
户 完成 数据 管理 和 共享 等 一 系列 活动 。 用 户 接口 层 布 
局 围绕 着 用 户 管理 系统 展开 ,主要 包括 登录 系统 、 权 限 
控制 ,个 性 化 数据 推送 及 与 其 他 数据 库 关联 ,而 用 户 管 
理 系统 又 可 与 应 用 与 服务 层 、 数 据 资 源 层 呈 现 映 射 关 
系 且 相 互 协调 反馈 , 即 通过 用 户 对 数据 分 析 、 数 据 对 
等 和 数据 共享 等 服务 的 利用 来 反馈 用 户 接口 的 效果 、 
性 能 以 及 数据 资源 的 质量 ,反之 亦 然 。 
(3) 应 用 与 服务 层 。 该 层 是 DC 的 核心 层 ,负责 向 
日 户 提供 各 类 数据 应 用 与 服务 ,围绕 着 数据 生态 系统 
功能 展开 , 主要 包括 数据 获取 数据 字典 .数据 关联 、 数 
据 分 析 数据 应 用 和 数据 共享 等 应 用 与 服务 。 针 对 国 
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内 数据 管理 的 短 板 , 该 层 以 中 观 和 微观 层面 的 管理 为 
重点 ,以 多 种 应 用 与 服务 相 融 合 的 服务 为 核心 的 策略 
去 引导 和 激励 数据 管理 的 发 展 ,面向 更 广泛 领域 的 用 
户 ,展开 全 面 、 彻 底 ` 有 效 的 数据 服务 ,实现 精准 识别 和 
挖掘 用 户 的 现实 和 潜在 需求 ,培养 用 户 获 取 数 据 、 分 析 
数据 和 应 用 数据 的 数据 素养 和 意识 ,消除 以 往 用 户 接 
受 数 据 服务 的 障碍 。 

(4) 数 据 资源 层 。 指 DC 管理 的 数据 类 型 及 数据 
来 源 ,是 数据 管理 服务 的 基础 。 数 据 种 类 包括 自然 与 
社会 科学 数据 ,如 经 济 、 医 疗 和 社会 化 等 领域 数据 ; 数 
据 来 源 包括 3 类 :人 不 同类 型 用 户 的 提交 与 共享 ;@ 关 
联 外 部 数据 源 (如 企业 、 政 府 等 发 布 的 数据 ) ;GDC 本 
身 拥有 的 数据 。 确 定数 据 来 源 后 ,可 通过 DC 的 数据 
EY ol a AAA 


及 我 国 DC 任务 的 
拢 格 或 组 织 ,如 图 书馆 ( 以 研究 型 图 书馆 和 高 校 图 书馆 
兰 掉 将 传统 图 书馆 的 学 术 交 流 、 咨 询 等 服务 拓展 到 数 
撕 这 机 ,使 图 书馆 用 户 服务 更 具 针对 性 、 实 用 性 5 )、 
各 禾 究 机 构 的 信息 技术 中 心 和 数据 管理 机 构 等 ;后 者 
他 搬 软 件 提供 商 ,政府 人 员 ,管理 团队 .技术 团队 各 类 
用 说 和 其 他 利益 相关 者 。 此 外 应 注意 平衡 用 户 和 相关 
利益 团体 的 利益 分 布 。 

- 〇 (2)DC 的 用 户 服务 。 分 为 完善 基础 服务 .发 展 增 
值 服务 和 用 户 激励 措施 3 个 方面 ,基础 服务 如 访问 权 
限 .鼓励 用 户 参 与 .个 性 化 设置 和 用 户 培训 等 ;增值 服 
务 如 协作 研究 .连接 用 户 和 社会 .决策 咨询 等 ;用 户 激 
励 措 施 如 降低 数据 获取 成 本 .推送 服务 (特色 工具 和 服 
务 等 ) .宣传 推广 ,奖励 机 制 等 ,此 外 还 应 考虑 解决 安全 
限制 ,及 时 补充 DC 空间 数据 .工具 和 方法 空白 ,促进 
业务 的 有 效 外 展 和 公众 参与 等 问题 。 

(3) DC 的 相关 协议 。DC 责任 主体 应 与 相关 机 构 
制定 数据 空间 和 用 户 管理 相关 规则 ,如 :GD 协同 设计 规 
则 :DC 管理 需 依靠 技术 专家 .科学 家 .用户 和 相关 政府 
等 协同 管理 ; @ 元 数据 规则 : DC 需 完整 有 效 的 元 数 
据 、 词 汇 表 和 数据 命名 规则 ,使 数据 被 搜索 .发现 和 关 
联 ;@ 控 制 协议 :管理 用 户 使 用 数据 ,可 构建 个 人 信息 
管理 系统 (PIMS) 增 强 用 户 管理 机 制 “ ;@ 透 明度 和 匿 
名 化 协议 :透明 化 管理 用 户 需求 ,为 用 户 安全 、 合 理 地 
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分 配 共享 资源 ,匿名 化 可 防止 数据 滥用 等 。 
6 结语 


国外 DC 的 理论 和 实践 在 数据 管理 领域 中 的 较 早 
应 用 体现 出 了 DC 的 独特 管理 优势 ,其 建设 管理 和 用 
户 个 性 化 、 自 主 化 交互 服务 模式 的 特点 可 为 我 国 建设 
和 发 展 数据 共享 空间 提供 适当 借鉴 ,进而 用 以 解决 我 
到 数据 管理 方面 的 难题 。 鉴 于 我 国 数据 共享 平台 功能 
和 服务 建设 的 不 足 及 国内 外 数据 环境 的 差异 ,本 研究 
提出 我 国 应 从 DC 的 总 体 规划 .目标 和 要 解决 的 问题 
中 人手 ,创建 适合 我 国 数据 环境 的 DC 架构 ,同时 注意 
区 分 DC 建设 和 运营 的 相关 责任 主体 ,从 平台 建设 , 充 
分 发 挥 功能 .完善 用 户 基础 与 增值 服务 和 设 定 DC 相 
关 协 议 规则 等 方面 建设 和 管理 DC ,最 终 促使 数据 共享 
平台 成 为 科研 人 员 及 其 他 用 户 管理 和 共享 数据 的 重要 
渠道 ,从 而 使 之 更 好 地 发 挥 科学 数据 管理 和 共享 的 职 
能 和 作用 。 
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